Java Data Mining

De Wikipedia, la enciclopedia libre

El Data Mining (podría traducirse por "Mínería de Datos") es el proceso de encontrar patrones y relaciones en un conjunto de datos mediante el desarrollo de un modelo que permita representarlos.

Este modelo se desarrolla en función de muestras de datos y permitirá aplicar los patrones y relaciones sobre nuevos datos para predecir comportamientos individuales (clasificación y regresión) así como segmentar las muestras (clustering), determinar las relaciones e identificar características que pueden alterar una determinada predicción. Así, el término por el que también se refiere a estas técnicas es el de análisis predictivo.

Java Data Mining (JDM) es el estándar de Java para el desarrollo de aplicaciones de Data Mining basado en la especificación JSR 247. En este estándar se describe la API para las herramientas que permiten a los desarrolladores concluir satisfactoriamente el desarrollo de aplicaciones de Data Mining.

El objetivo de la especificación es proveer de una interfaz en Java que facilite el acceso al mundo de las aplicaciones de Data Mining, ya que las APIS existentes (hasta el momento de la publicación de la JSR) son privadas. El uso de JDM permitirá que las aplicaciones de Data Mining en Java sean comprensibles por todos los desarrolladores en este lenguaje.

Componentes en la arquitectura de JDM[editar]

Consta de tres componentes lógicos:

Application Program Interface, API

Es el componente visible por el desarrollador. Básicamente se trata de la definición de los métodos y objetos que un desarrollador de una aplicación de Data Mining deberá conocer.

Data Mining Engine (DME)

Es el componente que provee los servicios solicitados por los clientes de la API. En la arquitectura cliente - servidor, se conocerá como el Data Mining Server, una instancia del sistema de información general.

Mining Object Repository (MOR)

Es el componente que permite hacer persistentes los objetos al DME, el meta - modelo. Típicamente ficheros o bases de datos relacionales.

Términos y conceptos del Data Mining[editar]

Los conceptos descritos en la especificación son:

  1. Data Mining Functions: Las funciones de Data Mining se clasifican como supervisadas y no supervisadas. Las supervisadas son utilizadas típicamente para la predicción y necesitan de una respuesta conocida o un objetivo para cada caso en el proceso de generación del modelo. Las no supervisadas, no necesitan dicho objetivo y son usadas normalmente para la descripción de la estructura interna, relaciones o afinidades en el cuerpo de los datos. Otro punto de vista por lo tanto es la predicción o la descripción. JDM describe las siguientes Mining Functions
    1. Clasificación
    2. Regresión
    3. Importancia de los atributos
    4. Extracción de características
    5. Detección de anomalías
    6. Series temporales
    7. Clustering
    8. Asociación
  2. Data Mining Tasks: Las tareas principales en el desarrollo con JDM son
    1. Construcción del modelo
    2. Prueba del modelo
    3. Aplicación del modelo a los datos
    4. Cálculo de estadísticas
    5. Exportación e importación de objetos de mining
  3. Data Mining Objects: JDM proporcióna la descripción de los principales objetos que intervienen en el código de una aplicación JDM que son clases relativas a:
    1. Conexiones
    2. URI
    3. Tareas
    4. Manejo de ejecución y estado
    5. Objetos de datos físicos
    6. Elementos de datos
    7. Preferencias de construcción
    8. Algoritmos
    9. Preferencias de los Algoritmos
    10. Modelos
    11. Firmas de modelos
    12. Detalles de modelos
    13. Atributos lógicos
    14. Datos lógicos
    15. Conjuntos de datos estadísticos
    16. Preferencias de aplicación (de modelos)
    17. Matrices de confusión (para describir la fiabilidad de las predicciones de un modelo)
    18. Restos
    19. Matrices de costes
    20. Mayores Probabilidades (facilitando la búsqueda de las características que intervienen en mayor medida sobre una predicción)
    21. Agrupación de valores
    22. Taxonomía de datos
    23. Comparación de modelos
    24. Reglas
    25. Informes de verificación
  4. Interfaz de configuración genérica
  5. Transformaciones
  6. Comandos
  7. Representación física de datos
  8. Mapeo de atributos
  9. Creación de objetos de datos físicos
  10. Persistencia
  11. Referencias a objetos
  12. Reflexión e introspección